Acquisition sur corpus d'informations lexicales fondées sur la sémantique différentielle
نویسنده
چکیده
Semantic lexicons are an essential resource to let many natural language process-ing applications (automatic summarization, information retrieval, automatic transla-tion, etc.) penetrate the meaning of a text. The relevance of the information gathered bythose lexicons raises a problematic question: the meaning of a word likesoap, for ex-ample, varies considerably whether it is considered in a sanitary or televisual context.A linguistically motivated and cost-effective way of building semantic lexicons pre-cisely adapted to a certain domain of expression consists in “learning” word meaningsfrom their actual usage as observed in a representative collection of texts, or corpus. To answer this challenge, we propose in this document a three-stage methodol-ogy for the automatic acquisition of lexical semantic information from texts, based onthe linguistic principles of F. Rastier’s Interpretative semantics. Thanks to a statisticalanalysis of word uses, employing both classical and novel methods, we first man-age to bring together words belonging to a same domain (for exampledata, transfer,network for IT), then to build classes of words having a similar meaning (data andinformation). We finally propose a first method to put to light fine-grained meaningdistinctions between close words(data is more “concrete” than information), thusreaching a level of meaning refinement never before attained, to our knowledge, byautomatic means.
منابع مشابه
Annotation de textes par extraction d'informations lexico-syntaxiques et acquisition de schémas conceptuels de causalité
Résumé. Nous présentons la méthode INSYSE (Interface Syntaxe SEmantique) pour l’annotation de documents textuels. Notre objectif est de construire des annotations sémantiques de ces résumés pour interroger le corpus sur la fonction des gènes et leurs relations de causalité avec certaines maladies. Notre approche est semi-automatique, centrée sur (1) l’extraction d’informations lexico-syntaxique...
متن کاملAcquisition d'informations lexicales à partir de corpus Cédric Messiant et Thierry Poibeau
Introduction L’existence de gros corpus (plusieurs millions de mots) et d’analyseurs syntaxiques performants fait qu’il est actuellement possible d’extraire automatiquement des connaissances à large couverture sur les mots et les constructions associées, directement à partir de corpus. Cette démarche permet d’obtenir des lexiques très complets à moindre coût, avec également des informations sur...
متن کاملExploitation de l'asymétrie entre termes pour l'extraction automatique de taxonomies à partir de textes
Résumé. Nous présentons dans cet article une nouvelle approche pour la génération automatique de structures lexicales (ou taxonomies) à partir de textes. Cette tâche est fondée sur l’hypothèse forte selon laquelle l’accumulation de faits statistiques simples sur les usages en corpus permet d’approximer des informations de niveau sémantique sur le lexique. Nous utilisons la prétopologie comme ca...
متن کاملExploitation de dictionnaires électroniques pour la désambiguïsation sémantique lexicale
RÉSUMÉ. Cet article présente un système de désambiguïsation lexicale sémantique, conçu initialement pour l’anglais et à présent adapté à la désambiguïsation du français. La méthodologie développée repose sur l’utilisation d’un dictionnaire électronique comme un corpus sémantiquement étiqueté afin d’en extraire une base de règles de désambiguïsation sémantique. Ces règles permettent d’associer à...
متن کاملAnalyse statique par interprétation abstraite de systèmes hybrides
ion de la partie continue Dans ce chapitre, nous présentons une abstraction de la partie continue des systèmes hybrides décrits au chapitre 5. Notre but est d’utiliser les algorithmes d’intégration garantie présentés au chapitre 3 comme une abstraction, au sens de l’interprétation abstraite, de la sémantique de la partie continue. Nous commençons donc par définir intuitivement les conditions qu...
متن کامل